SIGMOD 2021 有哪些值得关注的论文? 您所在的位置:网站首页 is spitfire a compliment SIGMOD 2021 有哪些值得关注的论文?

SIGMOD 2021 有哪些值得关注的论文?

2023-04-02 20:44| 来源: 网络整理| 查看: 265

SIGMOD21在六月底才召开,但是一些作者已经挂出了预印版,一直比较关注SIGMOD21,之前分享过的苹果的Foundationdb,说下几篇比较感兴趣的。

Industrial Papers

ConfluentConsistency and Completeness: Rethinking Distributed Stream Processing in Apache Kafka,作者还没放出文章(twitter上给作者求过预印版,无果),但听名字真的很有吸引力,Consistency和Completeness是流系统中的两个重要概念,最近有在研究流式计算相关,所有很期待这篇。

还有Vmware的Greenplum和微软的Citus,两个都是基于PostgreSQL的分布式数据库,虽然设计理念上差别挺大,毕竟都是在一个生态上,社区对它们也多有比较,感觉还挺有意思。Greenplum在arxiv挂的有一版,想尝鲜的可以看一下。

另外,华为诺亚方舟实验室的Learning-Aided Heuristics Design for Storage System(听名字应该就是是AI for Storage system和阿里云Jiesheng Wu组的ArkDB: a Key-Value Engine for Scalable Cloud Storage Services太神秘了,检索不到任何相关信息(毕竟是在Industrial Papers里面,应该是支撑其他业务的),极数云舟的云原生数据库也叫ArkDB。两篇都是存储系统相关的文章,还是有点期待。

Research Papers

Clonos: Consistent Causal Recovery for Highly-Available Streaming Dataflows

相比批处理,在流式系统中,确定性很难得到保证。非确定计算(随机数、定时器等)由于不能reproduce,会导致一致性很难得到满足。很多方法都把非确定性的因素规避掉(还有一些做法将不确定的计算结果持久化起来或者通过一些方式提前消除不确定性,确定型数据库是这样做的,可以看我之前分享的BOHM),本文的主要目的在于能够放松确定性的情况下,也就是不对确定性计算做要求,构建一个支持容错、高可用并且保证一致性的流式系统,在Flink上进行测试,Clonos在没有保证确定性计算的要求下,也能够获得即时恢复。

Blockchains vs. Distributed Databases: Dichotomy and Fusion

区块链也是一种数据管理技术,很自然的就能将它和数据库系统联系起来。但它们区别也很明显,设计出发点不一样,比如区块链的设计首先要考虑到安全性,比如它能保证在Byzantine场景下也能正确运行,但分布式数据库通常是假定Non-Byzantine的。相比而言,分布式数据库首要设计目标要保证事务的吞吐率,区块链技术比如虚拟货币最令人诟病的就是事务处理性能太糟糕了(文章给出了一组数据,Bitcoin 10/s VS Nosql 50, 000/s)。 总之,作者认为对它们的比较还停留在应用层(安全和事务),应该要更深层次挖掘,比如们之间有一些融合点,例如分布式数据库中的并发控制、sharding,replication等,都可以应用到区块链技术上。本文的目标在于从不同维度对两者之间的区别和联系进行了比较,感觉很有意思,如果想了解这方面的技术,还是挺值得读下。

Spitfire: A Three-Tier Buffer Manager for Volatile and Non-Volatile Memory

针对Hymem(Buffer Management)的优化,Hymem有两个限制:1.只支持单线程 2.NVM硬件是模拟的,真实的Intel DCPM和模拟的NVM存在差异,比如访问粒度不一致(256B和64B)。@无敌大饺子提出了面向真实硬件DCPM的多线程版本Hymem,期待大佬有机会分享下。

Chucky: A Succinct Cuckoo Filter for LSM-Tree

NVMe SSD性能提升,与DRAM性能差距进一步缩小,由于在每层都要维护Bloom filter,会引起比较大的查询延迟,引起LSM-Tree中Bloom filter成为新的瓶颈之一(之前的SSD或者HDD等访问延迟较大,Bloom filter引起的开销比重较小,可以忽略不计),本文提出用单个Succinct Cuckoo Filter替代LSM-Tree中的多个Bloom filter,可以有效减少查找引起的开销。

Nova-LSM: A Distributed, Component-based LSM-tree Key-value Store

为提高资源利用率,本文介绍了一种云原生的分布式KV存储系统,它采用了存算分离的分层结构,该系统由多个组件构成,其中包括LSMtree components (LTCs), logging components (LogCs), 和storage components (StoCs),LTC和StoC是分离的,它们之间通过RDMA进行访问。其中LogC可以与LTC集成到一起,也可以独立运行。本文类似Aurora的架构,能够弹性扩容,实现资源共享,提高资源利用率。并且也针对网络延迟带来的问题,进行了一系列优化。题外话

初略统计下,Research Papers 188篇,Industrial Papers 21篇,暂不清楚accept rate,看数量还挺多的,相比而言,系统方向的顶会也控制的太厉害了。国内:清华6、北大8、港科大6,另外港中文、西交等也有工作,阿里非一作署名了很多,并在Industrial Papers贡献了3篇。印象深刻的还是北大的Tong Yang(杨仝)课题组,有两篇文章,一作分别是大二和大四的本科生,值得深思。国外还是MIT、微软这些老户把持着,NUS今年也发了很多。

PODS:Research Papers 26篇,Andreas Pieris 2 、Yufei Tao 2、Xiao Hu 2、Phokion Kolaitis 2、Graham Cormode 3、Nofar Carmeli 2....基本上都是PODS上常年霸榜的人。Yufei Tao大佬的主页里面有一段话,很值得玩味。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有